import scrapy
from scrapy.http import Request
from dangdang.items import DangdangItem


class DangdangwebSpider(scrapy.Spider):
    name = 'dangdangweb'
    allowed_domains = ['dangdang.com']
    start_urls = ['https://category.dangdang.com/pg1-cp01.54.06.00.00.00.html']  # 初始网址

    def parse(self, response):  # 回调函数
        item = DangdangItem()
        item['title'] = response.xpath("//a[@class='pic']/@title").extract()  # 提取所有class=pic的a标签中的title中的内容值
        item['link'] = response.xpath("//a[@class='pic']/@href").extract()  # 提取所有class=pic的a标签中的title中的内容值
        item['comment'] = response.xpath(
            "//a[@class='search_comment_num']/text()").extract()  # 提取所有class=pic的a标签中的title中的内容值
        yield item  # 返回item让提取的数据放入pipeline管道中去处理

        # 构造循环爬取网址
        for i in range(2,100):
            url="https://category.dangdang.com/pg"+str(i)+"-cp01.54.06.00.00.00.html"
            yield Request(url,callback=self.parse)
